104 research outputs found

    Raba tipično govorjenih diskurznih označevalcev na spletu

    Get PDF
    V članku predstavimo primerjavo rabe treh tipično govorjenih diskurznih označevalcev v korpusu govorjene slovenščine Gos in korpusu slovenskih uporabniških spletnih vsebin Janes. Rezultati potrjujejo, da so ti izrazi na spletu rabljeni bistveno redkeje kot v spontanem govoru, vendarle pa njihova raba ni zanemarljiva, zlasti v besedilnih tipih s poudarjeno interaktivno oz. dialoško izmenjavo uporabniških sporočil. Pri tem se označevalci na spletu pojavljajo predvsem v semantično motiviranih funkcijah, kot so vzpostavljanje stika z naslovnikom, preverjanje strinjanja ali omiljevanje izrečenega, ki se hkrati prepletajo tudi z besedilnimi funkcijami poudarjanja ter menjave vlog. Prav tako na spletu razvijajo nekatere nove kontekste rabe, kot so nagovarjanje neznanega ali neudeleženega naslovnika, stilizacija in vstopanje v nove stalne besedne zveze

    Formulaičnost v slovenskem jeziku

    Get PDF
    Številne empirične raziskave povezovanja besed v jeziku razkrivajo, da je jezik prepreden z večbesednimi vzorci, ki vsaj na neki točki jezikovne rabe delujejo kot nerazstavljiva celota. To potrjujejo tudi dosedanje raziskave večbesednih enot v slovenščini, ki se običajno osredotočajo predvsem na strukturno ali pomensko zaključene enote, kot so kolokacije, stalne besedne zveze ali frazemi. Da bi omogočili bolj celovit vpogled v obseg in naravo formulaičnega jezika v slovenščini, ki bi ga bilo smiselno vključevati tudi v bodoče leksikalne in slovnične opise, v članku raziščemo alternativni koncept formulaičnih besednih nizov, tj. neprekinjenih nizov dveh ali več besed z izstopajočo pogostostjo pojavljanja, ne glede na njihovo strukturno, pomensko ali zaznavno celovitost. Predstavimo postopek identifikacije formulaičnih besednih nizov v referenčnih korpusih pisne in govorjene slovenščine, jih kvantitativno in kvalitativno analiziramo ter primerjamo. Velik delež identificiranih formulaičnih nizov v obeh korpusih dokazuje določeno stopnjo formulaičnosti, še zlasti v govorjeni slovenščini. Čeprav v obeh oblikah jezikovne rabe prevladujejo predvsem strukturno nezaključeni nizi funkcijskih besed, ugotavljamo več pomembnih razlik v skladenjskih in funkcijskih lastnostih najpogostejših nizov pisne in govorjene slovenščine, ki potrjujejo vpliv specifičnih sporazumevalnih okoliščin in ciljev na razvoj in obseg formulaičnega jezika

    Korpusi na poti v šole: jezikovnotehnološko izpopolnjevanje učiteljev

    Get PDF
    Slovensko društvo za jezikovne tehnologije (SDJT) je v sodelovanju s Filozofsko fakulteto v Ljubljani in Trojino, zavodom za uporabno slovenistiko, jeseni 2012 na šolah po Sloveniji izvajalo jezikovnotehnološko izpopolnjevanje učiteljev, ki ga je na podlagi javnega naročila male vrednosti sofinanciralo Ministrstvo za izobraževanje, znanost, kulturo in šport RS ter se neposredno povezuje z Resolucijo o nacionalnem programu za jezikovno politiko 2007–2011.1 Kot je bilo izpostavljeno v obrazložitvi naročila, se večina učiteljev slovenščine v okviru formalnega izobraževanja še ni srečala z jezikovnimi viri in orodji, ki so se v zadnjih letih izkazali za nepogrešljivo kompetenco pri pripravljanju učencev na delovanje v e-okolju. Sem se umeščata poznavanje in uporaba jezikovnih tehnologij, ki deloma zastarel opis jezika, kakršnega nudijo obstoječi normativni priročniki, dopolnjujejo z aktualiziranim opisom sodobne slovenščine

    Vrednost korpusa Janes za slovensko normativistiko

    Get PDF
    Namen pričujočega prispevka je preveriti vrednost korpusa Janes za normativistične raziskave. Korpus Janes namreč prinaša besedila, ki za razliko od gradiva v referenčnih korpusih večinoma niso jezikovno korigirana in zato realneje izkazuje tendence rabe oz. (ne)intuitivnost obstoječih jezikovnih pravil v širši jezikovni skupnosti. Za študijo primera smo izbrali zveze samostalnika z neujemalnim levim prilastkom (solo petje, RTV prispevek). Analiza razkriva: da se referenčni korpus Kres in korpus Janes glede zapisa teh zvez pomembno razlikujeta; da je raba tovrstnih zvez v korpusu Janes pogostejša in bolj raznolika kot v korpusu Kres; da se v obeh korpusih pojavlja visok delež zvez, ki v rabi izkazujejo variantnost v zapisovanju, tudi na ravni posameznih prilastkov; in – vsaj na prvi pogled – presenetljivo, da je raba v korpusu Janes konsistentnejša, kar nakazuje, da jezikovna regulacija obravnavanega problema povečuje variantnost v jezikovni rabi. Prispevek temelji na konferenčni temi, ki smo jo podatkovno in vsebinsko razširili, vključili smo tudi razpravo o možni nadaljnji obravnavi izbranega jezikovnega problema, širše pa o pomenu in načinu vključitve korpusa Janes v metodologijo slovenske normativistike

    Cross-lingual Dependency Parsing of Related Languages with Rich Morphosyntactic Tagsets

    Get PDF
    This paper addresses cross-lingual dependency parsing using rich morphosyntactic tagsets. In our case study, we experiment with three related Slavic languages: Croatian, Serbian and Slovene. Four different dependency treebanks are used for monolingual parsing, direct cross-lingual parsing, and a recently introduced crosslingual parsing approach that utilizes statistical machine translation and annotation projection. We argue for the benefits of using rich morphosyntactic tagsets in cross-lingual parsing and empirically support the claim by showing large improvements over an impoverished common feature representation in form of a reduced part-of-speech tagset. In the process, we improve over the previous state-of-the-art scores in dependency parsing for all three languages.Published versio

    Učno E-okolje Slovenščina na dlani: izzivi in rešitve

    Get PDF
    Prispevek izhaja iz treh izzivov, ki jih zaznavamo pri pouku slovenščine v višjih razredih osnovnih šol in v srednjih šolah: kako odpraviti napake knjižne norme, ki vztrajajo v pisnih izdelkih učencev; kako izboljšati frazeološko kompetenco; kako izboljšati sporazumevalno jezikovno zmožnost. Ti izzivi so osrednja točka razvoja sodobnega učnega e-okolja Slovenščina na dlani, ki temelji na jezikovnih in informacijsko-komunikacijskih tehnologijah ter prinaša podporo prožnim oblikam poučevanja, poučevanju na daljavo, lajša učiteljevo delo, omogoča pa tudi motiviranje učencev prek elementov igrifikacije. V prispevku predstavljamo zasnovo in izvedbo vsakega od štirih vsebinskih sklopov e-okolja: pravopis, slovnica, frazeologija in besedila

    D3.8 Lexical-semantic analytics for NLP

    Get PDF
    UIDB/03213/2020 UIDP/03213/2020The present document illustrates the work carried out in task 3.3 (work package 3) of ELEXIS project focused on lexical-semantic analytics for Natural Language Processing (NLP). This task aims at computing analytics for lexical-semantic information such as words, senses and domains in the available resources, investigating their role in NLP applications. Specifically, this task concentrates on three research directions, namely i) sense clustering, in which grouping senses based on their semantic similarity improves the performance of NLP tasks such as Word Sense Disambiguation (WSD), ii) domain labeling of text, in which the lexicographic resources made available by the ELEXIS project for research purposes allow better performances to be achieved, and finally iii) analysing the diachronic distribution of senses, for which a software package is made available.publishersversionpublishe

    Relatório de estágio em farmácia comunitária

    Get PDF
    Relatório de estágio realizado no âmbito do Mestrado Integrado em Ciências Farmacêuticas, apresentado à Faculdade de Farmácia da Universidade de Coimbr

    KRES corpus n-grams 1.0

    No full text
    This is a collection of n-grams extracted from the KRES corpus of written Slovene. In addition to the separate lists of n-grams for tokens and their attributes (morphosyntacic tag, lemma), an adjusted frequency list with statistical substring reduction has also been added (as described in O'Donnell 2011). Only n-grams within sentences have been counted

    IMP corpus n-grams 2.0

    No full text
    A collection of n-grams extracted from the IMP corpus of historical Slovene (cf. http://nl.ijs.si/imp/). Three sets of n-gram lists are provided for lowercased word n-grams of length 1 to 5: - extensive frequency lists of all extracted n-grams - filtered frequency lists of n-grams with minimum frequency 10/mil. - adjusted frequency list of all n-grams with minimum frequency 10/mil. Only n-grams within sentences have been counted, ignoring punctuation. For the filtered and adjusted list, only n-grams occurring in at least 2 different texts have been extracted. Key references: - K. Dobrovoljc, 2018. N-gram frequency lists for reference corpora of Slovenian language. Proceedings of the Language Technologies & Digital Humanities Conference 2018. - T. Erjavec. 2015. The IMP historical Slovene language resources. Language resources and evaluation 49/3, 753-775. doi: 10.1007/s10579-015-9294-7. - M. B. O’Donnell, 2010. The adjusted frequency list: A method to produce cluster-sensitive frequency lists. ICAME Journal 35, 135–169
    corecore